查看原文
其他

Baichuan3上榜金融基准测评:综合能力评级A, 金融知识评级A+

SuperCLUE CLUE中文语言理解测评基准
2024-12-08

本测评结果仅用于学术研究。

4月24日,SuperCLUE团队发布金融大模型基准测评首批结果,引起了金融行业的广泛关注和热议。近期SuperCLUE团队已陆续开展第二批次金融基准测评,对国内通用大模型及金融垂直大模型进行,进行了全方位的金融能力测评。

测评报名方式申请见文章底部
本文是对Baichuan3的金融基准能力进行的最新详细测评结果。
#模型简介
Baichuan3是百川智能推出的第三代基础模型,参数规模超千亿,于2024年1月29正式发布。相比去年9月推出的Baichuan2,各方面性能有了大幅提升,尤其在数学、逻辑及行业知识理解能力上做了着重优化。

体验地址:https://www.baichuan-ai.com/chat

#测评环境

参考标准:SuperCLUE-Fin中文金融测评基准

评测模型:Baichuan3(小范围内测API)


评测集:SuperCLUE-Fin中文金融测评基准,包括六大金融领域相关应用场景、二十五项细分任务类型。


模型GenerationConfig配置:

  • repetition_penalty=1.05

  • temperature=0.3

  • top_k=5

  • top_p=0.85

  • max_new_tokens=2048

  • do_sample=1


测评方法:

本次测评为自动化评测,具体评测方案可查阅SuperCLUE-Fin中文金融测评基准本次测评经过人工抽样校验。

SuperCLUE金融等级评定机制,具体规则说明如下:

其中第一梯队模型需满足条件:模型等级不低于A、基础能力等级与应用能力等级至少一项不低于A,即模型可以达到满足ToC及ToB的两种业务需求;

第二梯队模型需满足条件:模型等级不低于B、基础能力等级不低于B、应用能力等级不低于C,即模型可以基本满足ToC业务需求,但需提升ToB业务能力;

第三梯队模型即为等级为C或D的,需同时提升ToC与ToB两大业务需求的、具备发展潜力的模型。
#先说结论
结论1:在SuperCLUE-Fin金融基准上,Baichuan3表现不俗,金融总体评级A级。在国内大模型中,Baichuan3在金融能力方面处于第一梯队。有超过GPT-4的表现,较GPT-4 Turbo还有一定提升空间。

结论2:Baichuan3在金融知识百科能力上取得A+的最高评级,在金融数理计算、合规与风险管理、投顾应用三个能力上取得A评级同样表现出色。在金融理解认知和投研应用方面评级为B,还有一定优化空间。

以下是我们从定量和定性两个角度对模型进行的金融测评分析。

#测评分析
1  定量分析
总等级榜单
Baichuan3在金融总体能力上评级为A,高于GPT4的B级,较GPT-4 Turbo的A+还有一定提升空间。
任务大类等级榜单

Baichuan3在金融基础能力上表现出色评级为A,在金融应用能力评级为B,还有一定优化空间。

各任务等级榜单

Baichuan3在金融知识百科能力上表现不俗取得A+的最高评级,在金融数理计算、合规与风险管理、投顾应用三个能力上取得A评级同样表现出色。在金融理解认知和投研应用方面评级为B,还有一定优化空间,这也是国内其他大模型通用面临的问题,需要国内模型厂商后续做重点优化。

小结


从评测结果我们发现,Baichuan3金融综合能力上表现优异,处于国内A级水平。擅长金融知识百科、金融数理计算、合规与风险管理、投顾应用,在金融理解认知和投研应用方面还有一定优化空间。
2  定性分析
通过一些典型示例,对比定性分析Baichuan3的特点。(建议:在电脑端查看获得更好体验)

示例:金融知识百科

模型在两轮问题中均紧扣用户的提问,明确解释了“行权价”的定义,以及看涨期权和看跌期权两种策略的核心概念,满足了用户的基本目的和需求。回答语言清晰,逻辑结构条理,用户可以轻松理解。


示例:金融理解认知

模型简明扼要地总结了京仪装备在半导体专用设备领域的主要业务及市场位置,并准确提及了营收的增长和国产替代的趋势,展示了分析逻辑的专业性。

#测评申请

一、测评流程

1. 邮件申请

2. 意向沟通

3. 参测确认与协议流程

4. 提供测评API接口或大模型

5. 获得测评报告

二、申请测评地址

后续会持续更新专用金融大模型测评结果,欢迎金融模型研发机构申请报名。

邮件标题:SuperCLUE-Fin金融大模型测评申请,发送到contact@superclue.ai

请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式。

扩展阅读


[1] SuperCLUE-Fin: Graded Fine-Grained Analysis of Chinese LLMs on Diverse Financial Tasks and Applications, https://arxiv.org/abs/2404.19063

[2] SuperCLUE排行榜网站:www.superclue.com

[2] CLUE官网:www.CLUEBenchmarks.com

[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE-Fin

   点击阅读原文,查看SuperCLUE排行榜
继续滑动看下一个
CLUE中文语言理解测评基准
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存